{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "f19b9c43",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "540a59b342af464a8ef7c9c2e5f2d27a",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Fetching 1 files:   0%|          | 0/1 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "'/home/mesolitica/stt/CoVoST2-Instruction'"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from huggingface_hub import snapshot_download\n",
    "\n",
    "snapshot_download(\n",
    "    repo_id=\"mesolitica/CoVoST2-Instruction\",\n",
    "    repo_type='dataset',\n",
    "    allow_patterns=\"data/train*.parquet\",\n",
    "    local_dir=\"./CoVoST2-Instruction\",\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "c249f31b",
   "metadata": {},
   "outputs": [],
   "source": [
    "from glob import glob\n",
    "from tqdm import tqdm\n",
    "from multiprocess import Pool\n",
    "import itertools\n",
    "import zipfile\n",
    "import os\n",
    "\n",
    "def chunks(l, n):\n",
    "    for i in range(0, len(l), n):\n",
    "        yield (l[i: i + n], i // n)\n",
    "\n",
    "\n",
    "def multiprocessing(strings, function, cores=6, returned=True):\n",
    "    df_split = chunks(strings, len(strings) // cores)\n",
    "    pool = Pool(cores)\n",
    "    pooled = pool.map(function, df_split)\n",
    "    pool.close()\n",
    "    pool.join()\n",
    "\n",
    "    if returned:\n",
    "        return list(itertools.chain(*pooled))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "5344e0ef",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/usr/lib/python3/dist-packages/scipy/__init__.py:146: UserWarning: A NumPy version >=1.17.3 and <1.25.0 is required for this version of SciPy (detected version 1.26.4\n",
      "  warnings.warn(f\"A NumPy version >={np_minversion} and <{np_maxversion}\"\n"
     ]
    }
   ],
   "source": [
    "from glob import glob\n",
    "import pandas as pd\n",
    "import os\n",
    "import json\n",
    "from transformers import AutoProcessor"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "d467e210",
   "metadata": {},
   "outputs": [],
   "source": [
    "processor = AutoProcessor.from_pretrained(\"Qwen/Qwen2-Audio-7B-Instruct\")\n",
    "tokenizer = processor.tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "42d4d3dd",
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'question': 'please transcribe to English',\n",
       " 'from_language': 'Arabic',\n",
       " 'to_language': 'English',\n",
       " 'audio_filename': 'covost-mp3/common_voice_ar_19340854.mp3',\n",
       " 'answer': 'Who owns this villa.'}"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "rows = pd.read_parquet('CoVoST2-Instruction/data/train-00000-of-00001.parquet').to_dict(orient = 'records')\n",
    "rows[0]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "20e3f879",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[]"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "[r for r in rows if ['audio_filename'] == 'covost-mp3/common_voice_en_19982218.mp3']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "ebc4cc38",
   "metadata": {},
   "outputs": [],
   "source": [
    "from collections import defaultdict\n",
    "\n",
    "count = defaultdict(int)\n",
    "for r in rows:\n",
    "    count[r['audio_filename']] += 1"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "f0dd5499",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "covost-mp3/common_voice_en_19982218.mp3\n"
     ]
    }
   ],
   "source": [
    "for k, v in count.items():\n",
    "    if v > 1:\n",
    "        print(k)\n",
    "        break"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "b2d0c85d",
   "metadata": {},
   "outputs": [],
   "source": [
    "def loop(rows):\n",
    "    rows, _ = rows\n",
    "    data = []\n",
    "    for r in tqdm(rows):\n",
    "        if not os.path.exists(r['audio_filename']):\n",
    "            continue\n",
    "            \n",
    "        try:\n",
    "            conversation = [\n",
    "                {\"role\": \"user\", \"content\": [\n",
    "                    {\"type\": \"audio\", \"audio_url\": \"audio.wav\"},\n",
    "                    {\"type\": \"text\", \"text\": r['question']},\n",
    "                ]},\n",
    "                {\"role\": \"assistant\", \"content\": r['answer']},\n",
    "            ]\n",
    "            text = processor.apply_chat_template(conversation, tokenize=False)\n",
    "        except Exception as e:\n",
    "            continue\n",
    "\n",
    "        data.append({\n",
    "            'text': text,\n",
    "            'audio': r['audio_filename'],\n",
    "        })\n",
    "    return data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "26503103",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|███████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 3859.10it/s]\n"
     ]
    }
   ],
   "source": [
    "processed = loop((rows[:100], 0))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "id": "cd9aa0a9",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5544.18it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5600.10it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5505.19it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5758.12it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5754.27it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5648.28it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5643.64it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5636.73it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5495.80it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5547.53it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5734.78it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5738.51it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5532.46it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5509.89it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5724.02it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5629.32it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5681.01it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5749.07it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5490.74it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5621.78it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5701.71it/s]\n",
      "100%|█████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 4975.45it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5743.17it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5660.70it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5750.57it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5712.10it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5652.62it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5558.14it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5578.44it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5398.73it/s]\n",
      "100%|███████████████████████████████████████████████████████████████████████████████| 35135/35135 [00:06<00:00, 5522.06it/s]\n"
     ]
    }
   ],
   "source": [
    "processed = multiprocessing(rows, loop, cores = 30)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "2017ad64",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "1054060"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(processed)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "id": "05dd56bb",
   "metadata": {},
   "outputs": [],
   "source": [
    "with open('prepare-CoVoST2-Instruction.json', 'w') as fopen:\n",
    "    json.dump(processed, fopen)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "5238f131",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.12"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
